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Description 

L'invention concerns las precedes et dispositifs 
de synthese de la parole ; elle concerne, plus parti- 
cuVieremenU la synthese a partlr d'un dictionnaire 
d'elements sonores par decoupage du texts a synthe- 
tiser en microtrames identif iees chacune par un nu- 
mero d'ordre d'element sonore correspondant et par 
des parametres prosodlques (information de hauteur 
de son au debut et a la fin de ('element sonore et du- 
ree de I'element sonore), puis par adaptation et 
concatenation des elements sonores par une proce- 
dure d'additbn-recouvrement 

Les elements sonores stockes dans le dictionnai- 
re serontf requemment des diphones, e'est-a-dire des 
transitions entre phonemes, ce qui permet, pour la 
langue francaise, de se contenter d'un dictionnaire 
d'environ 1300 elements sonores ; on peut ce pen- 
dant utiliser des elements sonores differents, par 
example des syllabes ou meme des mots. Les para- 
metres prosodiques sont determines en fonction de 
criteres portant sur le contexts : la hauteur de son qui 
correspond a I'intonation, depend de r emplacement 
de I'element sonore dans un mot et dans la phrase et 
la duree donnee a I'element sonore est fbnetton du 
rythme de la phrase. 

II faut rappeler au passage que les met nodes de 
synthese de la parole se subdivisent en deux grou- 
pes. Celles qui utilfsent un modele mathematlque du 
conduit vocal (synthese par prediction lineaire, 
synthese a forma nts et synthese a transform ee de 
Fourier rapide) font intervenir une deconvolution dela 
source et de la fonction de transfert du conduit vocal 
et exigent en general une cinquantaine d'operations 
arithmetiques par echantillon numerique de la parole 
avant conversion numerique-analogique et restitu- 
tion. 

Cette deconvolution source-conduit vocal per- 
met d'une part la modification de la valeur de la fre- 
quence fondamentale des sons voises, e'est-a-dre 
des sons qui ont une structure harmonique et sont 
provoques par vibration des cordes vocal es, et d'au- 
tre part la compression des donnees representant le 
signal de parole. 

Celles qui appartiennent au second groupe de 
precedes utilisent la synthese dans le domains tem- 
pore! par concatenation de formes d'onde. Cette so- 
lution a I'avantage de la flexibility d'emploi et de la 
possibility de reduire considerablement le nombre 
d'operations arithmetiques par echantillons. En 
contrepartie, eHe ne permet pas de reduire le debit 
necessaire a la transmission autant que les method es 
basees sur un modele mathematique. Mais cet incon- 
venient disparalt lorsqu'on recherche essentiellement 
une bonne qua! its de restitution sans etre gene par 
la necessity de transmettre des donneessurun canal 
etroit 

La synthese de parole suivant la presents inven- 



tion appartient au second groupe. Elle trouve une ap- 
plication particulierement importante dans le domai- 
ne de la transformation d'une chain e orthographique 
(constitute par example par le texte fourni par une 
5 imprimante) en un signal de parole, par exemple res- 
titue directement ou emis sur une ligne telephonique 
normale. 

On connait deja (Diphone synthesis using an 
overlap-add technique for speech waveforms conca- 

io tenation, CHARPENT1ER et al, ICASSP 1986, IEEE- 
IECEJ-ASJ International Conference on Acoustics 
Speech and Signal Processing, pages 2 015-2 
018)un precede de synthese de parole a partir d'ele- 
ments sonores utilisant une technique d'addition-re- 

13 couvrement de signaux a court-terme. Mais it s'agit 
de signaux a court-terme de synthese, avec normali- 
sation du recouvrement des fenetres de synthese, 
obtenus par un processus tree complex© : 

- analyse du signal original par fenetrage syrt- 
20 chrone du voisement ; 

- transformee de Fourier du signal a court- 
terme ,* 

- detection d'enveloppe ; 

- homothetie de I'axe f requentiel sur le spectre 
25 de la source ; 

- ponderation du spectre modi fie de la source 
par I'enveloppe du signal d'origine ; 

- transformee de Fourier inverse. 

La presents invention vise notamment a fburnir 

30 un precede relativement simple et permettant une re- 
production acceptable de la parole. Elle part de I'hy- 
pothese qu'on peut considerer les sons voises 
com me la somme des reponses impulsionnelles d'un 
ftltre, stat tonna ire durant plusieurs millisecondes, 

35 (correspondant au conduit vocal) excite par une suite 
de Dirac, e'est-a-dire par un "peigne d'impulsions", de 
fagon synchrone de la frequence fondamentale de la 
source, e'est-a-d ire des cordes vocal es, ce qui se tra- 
duit dans le domaine spectral par un spectre harmo- 

40 nique, les harmoniques etant es paces de la frequen- 
ce fondamentale et ponderes par une envelop pe pre- 
sentant des maxima appeles formants, dependant de 
la fonction de transfert du conduit vocal. 

On a deja propose (Micro-phonemic method of 

45 speech synthesis, Lucaszewic et al, ICASSP 1987, 
IEEE, pages 1428-1429) d'effectuer une synthese de 
parole ou la diminution de la frequence fondamentale 
des sons voises, lorsqu'elle est necessaire pour res- 
pecter des donnees prosodiques, est effectuee par 

so insertion de zeros, les microphonemes stockes de- 
vant alors obligatoirement correspondre a la hauteur 
maximale possible du son a restituer, ou bien (brevet 
US 4 692 941) de diminuer de la meme maniere par 
insertion de zeros la frequence fondamentale, et 

55 d'augmenter celle-ci en diminuant la taille de chaque 
periode. Ces deux me th odes introduisent sur le signal 
de parole des distorsions non negligeables lors de la 
modification de la frequence fondamentale. 
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La presente invention vise a fournhr un precede et 
un dispositif de synthese a concatenation de formes 
d'onde ne presentant pas la limitation ci-dessus et 
permettant de fournir une parole de bonne qualite, 
tout en ne necessitant qu'un faible volume de calculs 5 
arithmetiques. 

Dans ce but, l'invention propose notamment un 
precede sub/ant la revendication 1 . 

Ces operations constituent la procedure de re- 
couvrement pu is addition des formes d'onde elemen- 10 
taires obtenues parfendtrage du signal de parole. 

En general, on utilisera des elements sonores 
constitues par des diphones. 

La largeur de la fenetre peut varier entre des va- 
ieurs inferieures et superieures a deux fois la periode 15 
d'origine. Dans I'exemple de mise en oeuvre qui sera 
decrit plus loin, la largeur de la fenetre est choisie 
avantageusement egale a environ deux fois la perio- 
de d'origine en cas d'augmentation de la periode fon- 
damentale ou environ deux fois la periode finale de 20 
synthese en cas d'augmentation de la frequence fon- 
damentale, af in de compenser partiellement les mo- 
difications d'energie dues au changement de la fre- 
quence fondamentale, non compensees par une nor- 
malisation possible de I'energie, tenant compte de la 25 
contribution de chaque fenetre a I'amplitude des 
echantillons du signal numerique de synthese : dans 
le cas d'une diminution de la periode fondamentale, 
la largeur de la fenetre sera done inferieure a deux 
fois la periode fondamentale d'origine. II est peu sou- 30 
haitable de descendre au dessous de cette valeur. 

Du fait qu'il est possible de modifier la valeur de 
la frequence fondamentale dans les deux sens, les di- 
phones sont memorises avec la frequence fonda- 
mentale naturelle du locuteur. 35 

Avec une fenetre de duree 6gale a deux periodes 
fondamentales consecutives dans le cas voise, on 
obtient des formes d'onde elementaires dont le spec- 
tre represente sensibiement I'enveloppe du spectre 
du signal de parole ou spectre a court terme large 40 
bande -du fait que ce spectre est obtenu par convo- 
lution du spectre harmonique du signal de parole et 
de la reponse f requentielle de la fenetre, qui dans ce 
cas possede une largeur de bande superieure a la dis- 
tance entre harmoniques- ; la redistribution temporel- 45 
le de ces formes d'onde elementaires donnera un si- 
gnal possedant sensibiement la meme enveloppe 
que le signal d'origine mais une distance entre har- 
moniques modif iee. 

Avec une fenetre de duree superieure a deux pe- so 
riodes fondamentales, on obtient des formes d'onde 
elementaires dont le spectre est encore harmonique, 
ou spectre a court terme bande etroite -du fait que 
cette fois-ci la reponse f requentielle de la fenetre est 
moins large que la distance entre harmoniques- ; la 55 
redistribution temporelle de ces formes d'onde ele- 
mentaires donnera un signal possedant, comme le si- 
gnal de synthese precedent, sensibiement la meme 



enveloppe que ie signal d'origine a ceci pres qu'on 
aura introduit des termes de reverberation (signaux 
dont le spectre possede una amplitude moindre, une 
phase differente, mais la meme forme que le spectre 
d'amplitude du signal d'origine), dont I'effet ne sera 
audible qu'au dela de largeurs de fenetre d'environ 
trois periodes, cet effet de reverberation ne degra- 
dant pas la qualite du signal de synthese lorsque son 
amplitude est faible. 

On peut notamment utiliser une fenetre de Han- 
ning, bien que d'autres formes de fenetre soient 6ga- 
tement acceptables. 

Le traitement defini ci-dessus peut egalement 
etre applique aux sons dits sounds ou non voises, 
pouvant etre represents par un signal dont la forme 
s'apparente a ceile d'un bruit blanc, mais sans syn- 
chronisation des signaux fenetres : ceci a pour but 
d'homogeneiser le traitement sur les sons sourds et 
les sons voises, ce qui permet d'une part le lissage 
entre elements sonores (diphones) et entre phone- 
mes sourds et voises, etd'autre part une modification 
du rythme. II se pose un probleme a la jonction entre 
diphones. Une solution pour ecarter cette diff iculte 
consiste a omettre I'extraction de formes d'onde ele- 
mentaires a partir des deux periodes fondamentales 
adjacentes de transition entre diphones (dans le cas 
des sons sourds, les marques de voisement sont rem- 
placees par des marques posees arbitrairement) : on 
pourra soit def inir une troisieme fonction d'onde ele- 
mentaire en calculant la moyenne des deux fbnetions 
d'onde elementaires extraites de part et d'autre du di- 
phone, soit utiliser la procedure d'addition-recouvre- 
ment directement sur ces deux fbnetions d'onde ele- 
mentaires. 

L'invention sera mieux comprise a la lecture de la 
description qui suit d'un mode particulier de mise en 
oeuvre de l'invention, donne a titre d'exemple non li- 
mitatif. La description se refers aux dessins qui I'ao 
compagnent, dans lesquels : 

- la Figure 1 est un graphs destine a iliustrer la 
synthese de la parole par concatenation de di- 
phones et modification des parametres proso- 
diques dans le domaine temporel, conforme- 
ment a l'invention ; 

- la Figure 2 est un schema synoptique montrant 
une constitution possible du dispositif de 
synthese, implante sur un calculateur h6te ; 

- la Figure 3 montre, a titre d'exemple, comment 
on modif ie les parametres prosodiques d'un si- 
gnal naturel, dans le cas d'un phoneme parti- 
culier; 

- les Figures 4A, 4B et 4C sont des graphiques 
destines a montrerdes modifications spectra- 
les apportees a des signaux de synthese voi- 
ses, la Figure 4A montrant le spectre d'origine, 
la Figure 4B le spectre avec diminution de la 
frequence fondamentale et la Figure 4C le 
spectre avec augmentation de cette frequen- 
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ce ; 

- la Figure 5 est un graph ique montrant un prin- 
cipe d'attenuation des discontinuites entre di- 
phones ; 

- la Figure 6 est un schema montrant le fenetra- s 
ge sur plus de deux periodes. 

La synthase d'un phoneme est ef fectuee a partir 
de deux diphones stockes dans un dictionnaire, cha- 
que phoneme etant compose de deux demi- 
d iphones. Le son "e" dans "periode" par exemple sera 1 o 
obtenu a partir du second demi-di phone de "pai"etdu 
premier demi-diphone de "air". 

Un module de traduction orthog rap h ique phone- 
tique et de calcul de la prosodie (qui ne fait pas partie 
de rinvention) fournit a un instant donne, des indica- is 
tions identif iant : 

- le phoneme a restituer, d'ordre P 

- le phoneme precedent, d'ordre P-1 

- le phoneme suivant, d'ordre P+1 

et donnant la duree a af fecter au phoneme P ainsi que 20 
les periodes au debut et a la fin (Figure 1). 

Une premiere operation d'analyse, qui n'est pas 
modifiee par rinvention, consiste a determiner, par 
d 6 cod age du nom des phonemes et des indications 
prosodiques, les deux diphones retenus pour le pho- 25 
name a utiliser et le voisement 

Tous les diphones disponibles (au nombre de 
1300 par exemple) sont memorises dans un diction- 
naire 10 muni d'une table constituant le descripteur 
1 2 et contenant I'adresse du debut de chaque dip ho- 30 
ne (en nombre de blocs de 256 octets) la longueur du 
dip hone et le milieu du diphone (ces deux derniers 
para metres etant exp rimes en nombre d'echantillons 
a partir du debut) et des marques de voisement repe- 
rant le debut de la reponse du conduit vocal a I'exci- 35 
tation des cordes vocales dans le cas d'un son voise 
(au nombre de 35 par exemple). Des dictionnaires de 
diphones repondant a ces criteres sont disponibles 
par exemple aupres du Centre National d'Etudes des 
Telecommunications. 40 

Les diphones sont alors utilises dans un proces- 
sus d'analyse et de synthese schematise sur la Figu- 
re 1. On decrira ce processus en supposant qu'il est 
mis en oeuvre dans un dispositif de synthese ayant 
la constitution montree en figure 2, destine a etre re- 45 
lie a un calculateur hdte, tel que le processeur central 
d'un ordinateur personnel. On supposera egalement 
que la frequence d'echantillonnage donnant la repre- 
sentation des diphones est de 16 kHz. 

Le dispositif de synthese (Figure 2) comporte so 
alors une memoire vive principale 16 qui contient un 
micro-programme de calcul, le diction naire de dipho- 
nes 10 (c'est-a-dire des formes d'onde representees 
par des echantillons) ranges dans I'ordre des adres- 
ses du descripteur, la table 12 constituant le descrip- 55 
teur de dictionnaire, et une fenetre de Hanning, 
echantillonnee par exemple sur 500 points. La me- 
moire vive 1 6 constitue egalement memoire de mtcro- 



trame et memoire de travail. Elle est reliee par un bus 
de donnees 1 8 et un bus d'adresses 20 a un acces 22 
au calculateur hdte. 

Chaque micro-trame emise pour restituer un 
phoneme (Figure 2) est constitute, pour chacun des 
deux phonemes P et P+1 qui interviennent 

- du numero d'ordre du phoneme, 

- de la valeur de la periode au debut du phone- 
me, de la valeur de periode a la fin du phone- 
me, et 

- de la duree totale du phoneme pouvant etre 
remplacee par la duree du diphone pour le se- 
cond phoneme. 

Le dispositif comprend encore, relies aux bus 18 
et 20, une unite de calcul locale 24 et un circuit d'ai- 
guillage 26. Ce dernier permet de relier une memoire 
vive 28 servant de tampon de sortie soit vers le cal- 
culateur, sort vers un controleur 30 de convertisseur 
numerique/analogique 32 de sortie. Ce dernier atta- 
que un filtre passe-bas 34, generalement limite a 8 
kHz, qui alimente un amplif icateur de parole 36. 

Le fonctionnement du dispositif est le suivant 

Le calculateur h6te (non represents) charge les 
micro-trames dans le tableau reserve en memoire 1 6 V 
par I'intermediaire de I'acces 22 et des bus 1 8 et 20, 
puis il commando le debut de synthese a I'unite de 
calcul 24. Cette unite de calcul recherche le numero 
du phoneme courant P, du phoneme suivant P+1 et du 
phoneme precedent P-1 dans le tableau de micro-tra- 
mes, a I'aide d'un index memorise dans la memoire 
de travail, initialises a 1 . Dans le cas du premier pho- 
neme, I'unite de calcul vient chercher uniquement les 
numeros du phoneme courant et du phoneme sui- 
vant. Dans le cas du dernier phoneme, elle vient cher- 
cher le numero du phoneme precedent et celui du 
phoneme courant. 

Dans le cas general, un phoneme est constitue 
de deux demi-diphones ; I'adresse de chaque dipho- 
ne est recherchee par ad res sage matriciel dans le 
descripteur du dictionnaire par la formula sulvante : 

numero du descripteur de diphone = numero du 
1er phoneme + (numero du 2eme phoneme - 
1) * nombre de diphones 

Sons voises 

L' unite de calcul charge, en memoire de travail 
16, I'adresse du diphone, sa longueur, son milieu ain- 
si que les trente-cinq marques de voisement Elle 
charge ensuite, dans un tableau descripteur du pho- 
neme, les marques de voisement correspondant a la 
deuxieme partie du diphone. Puis elle recherche, 
dans le dictionnaire de formes d'onde, la deuxieme 
partie du diphone, qu'elle place dans un tableau re- 
presentant le signal du phoneme d'analyse. Les mar- 
ques conservees dans le tableau descripteur du pho- 
neme sont decrementees de la valeur du milieu du d*- 
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phone. 

Cette operation est repetee pour la deuxieme 
partie du phoneme constituee par la premiere partie 
du deuxieme diphone. Les marques de voisement de 
la premiere partie du deuxieme diphone sont ajoutees 
aux marques de voisement du phoneme et incremen- 
tees de la valeur du milieu du phoneme. 

Darts le cas des sons voises, l'unite de calcul, a 
partir des parametres prosodiques (duree, periode 
debut et periode fin du phoneme) determine alors le 
nombre de periodes necessaire a la duree du phone- 
me, suivant la formule : 

nombre de periodes = 2* duree du phoneme / (pe- 
riode debut + periode fin) 

L'unite de calcul range en memoirs le nombre de 
marques du phoneme natural, egal au nombre de 
marques de voisement puis determine le nombre de 
periodes a el i miner ou a ajouter en effect uant la dif- 
ference entre le nombre de periodes de synthese et 
le nombre de periodes d'analyse, difference qui est 
fixes par la modification de tonalite a introduire a par- 
tir de celle qui correspond au diction naire. 

Pour chaque periode de synthese retenue, l'unite 
de calcul determine ensuite la periode d'analyse re- 
tenue parmi les periodes du phoneme a partir des 
considerations suivantes : 

- la modification de la duree peut dtre conside- 
ree comme la mise en correspondance, par de- 
formation de I'axe des temps du signal de 
synthese, des n marques de voisement du si- 
gnal d'analyse et des p marques du signal de 
synthese, n et p etant des entiers predetermi- 
nes ; 

- a chacune des p marques du signal de synthe- 
se doit etre associee la marque la plus proche 
du signal d'analyse. 

La duplication ou, au contraire, I'elimination de 
periodes egalement reparties sur tout le phoneme 
modifie la duree de celut-ci. 

II faut noter qu'on n'aura pas a extraire une forme 
d'onde elementaire a partir des deux periodes adja- 
centes de transition entre diphones : I'operation d'ad- 
dition-recouvrement des fonctions el6mentaires ex- 
traites des deux dernieres periodes du premier dipho- 
ne et des deux premieres periodes du deuxieme di- 
phone permet le lissage entre ces diphones comme 
le montre la figure 5. 

Pour chaque periode de synthese, l'unite de cal- 
cul determine le nombre de points a ajouter ou a sup- 
primer a la periode d'analyse en effect uant la diffe- 
rence entre cette derniere et la periode de synthese. 

Comme on I'a indique plus haut, it est avantageux 
de choisir la largeur de la fenetre d'analyse de la fa- 
con suivante, illustree en Figure 3 : 

- si la periode de synthese est inferieure a la pe- 
riode d'analyse (lignes A et B de la Figure 3), 
la taille de la fenetre 38 est le double de la pe- 
riode de synthese ; 



- dans le cas contraire, la taille de la fenetre 40 
est obtenue en multipliant par deux la plus fai- 
ble des valeurs de la periode d'analyse couran- 
te et de la periode d'analyse precedente (lignes 

5 C et D). 

L'unite de calcul determine un pas d'avancement 
dans la lecture des valeurs de la fenetre, tabulee par 
exemple sur 500 points, le pas etant alors egal a 500 
divise par la taille de la fenetre precedemment caicu- 

10 lee. Elie lit dans la memore tampon de signal du pho- 
neme d'analyse 28 les echantillons de la periode pre- 
cedente et de la periode courante, les pondere par la 
valeur de la fenetre de Hanning 38 ou 40 indexes par 
le numero de I'echantillon courant multiple par le pas 

15 d'avancement dans la fenetre tabulee et ajoute, au 
fur et a mesure, les valeurs calculees a la memoirs 
tampon du signal de sortie indexe par la somme du 
compteur de I'echantillon courant de sortie et de ('in- 
dex de recherche des echantillons du phoneme 

20 d'analyse. Le compteur de sortie courant est ensuite 
increments de la valeur de la periode de synthese. 

Sons sourds (non voises) 

25 Pour les phonemes sourds, le traitement est ana- 

logue au precedent, excepte que la valeur des pseu- 
do- periodes (distance entre deux marques de voise- 
ment) n f est jamais mod if iee : I'elimination de pseudo- 
periodes au centre du phoneme diminue simplement 

30 la duree de celui-ci. 

On n'augmente pas la duree de phonemes 
sourds, excepte par addition de zeros au milieu des 
phonemes "silence". 

Le fendtrage s'effectue par periode pour norma- 

35 User la somme des valeurs des fenetres appliquees 
au signal : 

- du debut de la periode precedente a la fin de 
la periode precedente, le pas d'avancement 
dans la lecture de la fenetre tabulee est (dans 

40 le cas d'une tabulation sur 500 points) egal a 

500 divise par deux fois la duree de la periode 
precedente ; 

- du debut de la periode courante a la fin de la 
periode courante, le pas d'avancement dans la 

45 fenetre tabulee est egal a 500 divise par deux 

fois la duree de la periode courante plus un de- 
calage constant de 250 points. 
A la fin du calcul du signal d'un phoneme de 
synthese, l'unite de calcul range la derniere periode 
so du phoneme d'analyse et de synthese dans la memoh 
re tampon 28 qui permet la transition entre phone- 
mes. Le compteur de I'echantillon courant de sortie 
est decrements de la valeur de la derniere periode de 
synthese. 

55 Le signal ainsi genere est envoye, par blocs de 

2048 echantillons, dans un de deux espaces memoi- 
re reserves a la communication entre l'unite de calcul 
et le controleur 30 du convertisseur numerique/ana- 
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logique 32. Des que le premier bloc est charge dans 
la premiere zone tampon, le contrdleur 30 est active 
par {'unite de calcul et vide cette premiere zone tam- 
pon. Pendant ce temps, l'unite de calcul remplit une 
deuxieme zone tampon de 2048 echantillons. L'unite 
de calcul vient ensuite alternativement tester ces 
deux zones tampons grace a un drapeau pour y char- 
ger ie signal numerique de synthese a la fin de cha- 
que sequence de synthese d'un phoneme. Le contrd- 
leur 30, en fin de lecture de chaque zone tampon, po- 
sition ne le drapeau correspondant. En fin de synthe- 
se, le contrdleur vide la derniere zone tampon et po- 
sitionne un drapeau de fin de synthese que le calcu- 
lator note peut lire via I'acces de communication 22. 

L'exemple de spectre de signal de parole voise 
d'analyse et de synthese illustre en Figures 4A-4C 
montre que les transformations temporelles du signal 
numerique de parole n'affectent pas I'enveloppe du 
signal de synthese, tout en modif iant la distance en- 
tre harmoniques, c'est-a-dire la frequence fonda- 
mentale du signal de parole. 

La complexite du calcul reste faible : le nombre 
d'operations par echantillon est en moyenne de deux 
multiplications et deux additions pour la pond erat ion 
et la sommation des fonctions elementaires fburnies 
par I' analyse. 

L'invention est susceptible de nombreuses va- 
riantes de realisation et, en particulier, comme on I'a 
indique plus haut, une fenetre de large ur superieure 
a deux periodes, comme le montre la Figure 6, even- 
tuellement de taille f bee, peut donner des resultats ac- 
ceptaWes. 

On peut aussi utiliser le procede de modification 
de la frequence fondamentale sur des signaux nume- 
riques de parole en dehors de son application a la 
synthese par diphones. 



Rovondications 

1. Precede de synthese de parole a partir d'ele- 
ments sonores (mots, syllabes, diphones,...), sui- 
vant lequel : 

(a) on effectue, au moins sur les sons voises 
des elements sonores, une analyse en appii- 
quant une fenetre de f iltrage synchrone de la 
frequence fondamentale d'origine, sensible- 
ment centree sur le debut de chaque reponse 
impulsion nelle du conduit vocal a I'excitation 
des cordes vocales, presentant une amplitu- 
de decroissant jusqu'a zero aux bords de la fe- 
netre, dont la largeur est au moins egale a en- 
viron deux fois la periode fondamentale d'ori- 
gine ou environ deux fois la periode fonda- 
mentale de synthese, selon que la periode 
fondamentale de synthese est superieure ou 
inferieure a la periode fondamentale d'origine, 

(b) on replace les signaux resultant du fene- 



trage correspondant a chaque element sono- 
re, avec un decalage tempore! de ceux-ci egal 
a la periode fondamentale de synthese, sui- 
vant une information prosodique concernant 
5 la frequence fondamentale de synthese, et 

(c) on effectue la synthese par sommation 
des signaux ainsi decales, 

caracterise en ce que le procede ne 
comporte pas de transformation spectrale des si- 
10 gnaux analyses, visant a modifier la frequence 

fondamentale de ces signaux, entre les etapes 
(a)et(b). 

2. Procede de synthese de parole selon la re vend i- 
15 cation 1, caracterise en ce qu'on realise un dic- 

tionnaire d'elements sonores, par exemple de di- 
phones, on decoupe le texte a synthetiser en mi- 
cro-trames identifies chacune par le numero de 
('element sonore correspondant (diphone) et au 
20 moins une information prosodique, constitute au 

moins par la valeur de la frequence fondamentale 
en debut et en fin d'element et par la duree de 
('element 

25 3. Procede de synthese de parole selon Tune des 
revendications 1 et 2, caracterise en ce que la lar- 
geur de la fenetre est egale a deux fois la periode 
d'origine en cas de diminution de la frequence 
fondamentale ou deux fois la periode finale de 

30 synthese en cas d'augmentation de la frequence 

fondamentale. 

4. Procede de synthese de parole selon Tune des 
revendications 1 a 3, caracterise en ce que la fe- 

35 netre est une fenetre de Hanning. 

5. Dispositif de synthese de parole executant le pro- 
cede selon la revendication 1, caracterise en ce 
qu'il comprend, relies a des bus (18,20) : une me- 

40 moire vive principale (16) qui contient un micro- 

programme de calcul, un dictionnaire de dipho- 
nes (10) constitues de formes d'onde represen- 
tees par des echantillons ranges dans I'ordre des 
a dresses d'un descripteur (12) de dictionnaire, et 

45 une fenetre de Hanning echantillon nee, ladite 

memoirs vive (1 6) constituant egalement memoi- 
re de micro-trame et memoire de travail ; une uni- 
te de calcul locale (24) et un circuit d'aiguillage 
(26) permettant de relier une memoire vive (28) 

so servant de tampon de sortie soit vers l'unite de 

calcul, soit vers un contrdleur (30) de convertis- 
seur numerique/anaiogique (32) de sortie atta- 
quant un filtre passe-bas (34) qui alimente un 
amplif icateur de parole (36). 

55 
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Patentanspriiche 

1. Verfahren zur Sprachsynthese aus akustischen 
Elementen (Worten, Silben, Diphonen, ...) ge- 
maB welchem: 

(a) bei wenigstens den stimmhaften Lauten 
der akustischen Elemente eine Analyse unter 
Anwendung eines Fensters zum synchronen 
Filtern der Ursprungsgrundfrequenz durch- 
gefuhrt wird, welches im wesentlichen auf 
dem Anfang jeder Impulsantwort des Stimm- 
kanals bei Anregung der StimmbSnder zen- 
triert ist, welche eine an den Randern des 
Fensters bis auf Null absinkende Amplitude 
aufweist, dessen Breite wenigstens ungeffihr 
das Zweifache der Ursprungsgrundperiode 
oder ungefdhr das Zweifache der Synthese- 
grundperiode ist, je nachdem, ob die Synthe- 
segrundperiode groBer oder kleiner als die 
Ursprungsgrundperiode ist, 

(b) die aus der Anwendung des Fensters re- 
sultierenden, jedem akustischen Element 
entsprechenden Signale mit einer zeitlichen 
Verschiebung derselben, welche gleich der 
Grundperiode der Synthese ist, gemaB einer 
die Grundfrequenz der Synthese betreffen- 
den prosodischen Information wiederaufge- 
stellt werden und 

(c) die Synthese durch Summierung der der- 
ail verschobenen Signale durchgefuhrt wird, 

dadurch gekennzeichnet, 
daB das Verfahren keine spektrale Transformati- 
on der analysierten Signale zwischen den Schrit- 
ten (a) und (b) umfaBt, welche darauf abzielt, die 
Grundfrequenz dieser Signale zu modif izieren. 

2. Verfahren zur Sprachsynthese nach Anspruch 1 , 
dadurch gekennzeichnet, daB ein Lexikon von 
akustischen Elementen, z.B. von Diphonen, er- 
stellt wird, der zu synthetisierende Text in Mikro- 
ensembles aufgeteilt wird, welche jeweils durch 
die Nummer des entsprechenden akustischen 
Elements (Diphon) und wenigstens eine prosodi- 
sche, wenigstens von dem Wert der Grundfre- 
quenz am Anfang und am Ende des Elements 
und von der Dauer des Elements gebildete Infor- 
mation identif iziert werden. 

3. Verfahren zur Sprachsynthese nach einem der 
Anspruche 1 und 2, dadurch gekennzeichnet, 
daB die Breite des Fensters das Zweifache der 
Ursprungsperiode im Fall der Verminderung der 
Grundfrequenz oder das Zweifache der End pe- 
riods der Synthese im Fall der Verstarkung der 
Grundfrequenz ist. 

4. Verfahren zur Sprachsynthese nach einem der 
Anspruche 1 bis 3, dadurch gekennzeichnet, daB 



das Fenster ein Hanning-Fenster ist. 

5. Sprachsynmesevorrichtung zur Durchf uhrung des 
Verfahrens nach Anspruch 1, dadurch gekenn- 

5 zeichnet, daB sie an Bussen (18, 20) angescNos- 

sen umfaBt ein Haupt-RAM (16), welches ein 
Berechnungs-Mikroprograrnm, ein Lexikonterbuch 
(10) von Diphonen, welche von Well enformen ge- 
bildet sind, die von in der Reihenfolge der Adres- 

io sen eines Deskriptors (12) des Lexikons abge- 

speicherten Abtastwerten dargestellt werden, 
und ein abgetastetes Hanning-Fenster umfaBt, 
wobei das RAM (16) auch den Mikroensemble- 
speicher und den Arbeitsspeicher bildet; eine lo- 

15 kale Recheneinheit (24) und eine Verzweigungs- 

schaltung (26), welche es ermdglicht, ein als Aus- 
gangspuffer dienendes RAM (28) entweder mit 
der Recheneinheit zu verbinden oder mit einer 
Steuereinheit (30) eines Digital/ Anal og-Aus- 

20 gangswandlers (32), welcher in ein einen Sprach- 

verst&rker (36) spetsendes Tiefpaftfilter (34) 
mundet 



1. Method of speech synthesis from sound ele- 
ments (words, syllabes, di phones,...), wherein: 

(a) analysis is carried out, at least on the 
30 voiced sounds of the sound elements, by win- 
dowing by means of a filtering window approx- 
imately centered on the beginning of each 
pulse response of the vocal tract to an excita- 
tion of the vocal cords, the window having an 

35 amplitude decreasing to zero at the edges of 

the window, whose width is at least equal to 
twice the original fundemental period or twice 
the fundamental synthesis period, 

(b) the signals resulting from windowing cor- 
40 responding to each sound element are re- 
placed with a time shift thereof equal to a fun- 
damental synthesis period, which is lesser 
than or greater than the original fundamental 
period, responsive to prosodic information re- 

45 fating to the fundamental sysnthests frequen- 

cy, 

(c) synthesis is carried out by summing the 
thus shifted signals, 

characterized in that the method does not 
so include a spectral transformation of the analysed 

signals, for modifying the fundamental frequency 
of said analysed signals, between steps (a) and 
(b). 

55 2. Method of speech synthesis according to claim 1, 
characterized in that a dictionary of sound 
elements, for example di phones, is formed; the 
text to be synthesized is split into microf rames 
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each identified by the serial number of the corre- 
sponding sound element (diphone) and at least 
one prosodic information, formed at least by the 
value of the fundamental frequency at the begin- 
ning and at the end of an element and by the dur- s 
ation of the element. 

3. Method of speech synthesis according to any one 
of claims 1 and 2, 

characterized in that the width of the win- 10 
dow is equal to twice the original period in the 
case of reduction of the fundamental frequency 
or twice the final synthesis period in the case of 
increase of the fundamental frequency. 

15 

4. Method of speech synthesis according to any one 
of claims 1-3, 

characterized in that the window is a Han- 
ning window. 

20 

5. Device for speech synthesis carrying out the 
method of claim 1, 

characterized in that it comprises, con- 
nected to buses (18, 20): a main random access 
memory (16) which contains a computing micro- 25 
program, a dictionary of diphones (10) formed of 
waveforms represented by samples stored in the 
order of the addresses of a dictionary descriptor 
(12) and a sampled Hanning window, said ran- 
dom access memory (16) also forming a micro- 30 
frame memory and a working memory; a local 
computing unit (24) and a routing circuit (26) mak- 
ing it possible to connect a random access mem- 
ory (28) serving as output buffer either to the 
computing unit or to a controller (30) of an output 35 
digital/analog converter (32) driving a low pass 
filter (34) which feeds a speech amplifier (36). 
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